Data-intensive Computing Timeline - Concepedia

Concepedia

Concept

data-intensive computing

Parents

Computer Science

Children

Anomaly DetectionBig DataClassificationClustering (Data Mining)Clustering (Nuclear Physics)

4.9K

Publications

343.9K

Citations

14.7K

Authors

2.3K

Institutions

Data-Intensive Computing (1999-2007)

1999 - 2007

The period is characterized by a shift toward processing and moving large-scale data in distributed and heterogeneous environments, driven by the need to minimize data movement, exploit data locality, and enable scalable analytics on commodity hardware. Techniques emphasize decoupled task placement, grid-aware scheduling, efficient data transport, and compact representations to manage the deluge of scientific and industrial data. Historical Significance: Foundations were laid for data-intensive workflows, reproducible computing, and distributed data infrastructures that would underpin later big-data and high-performance analytics, including early explorations of genome-scale data handling, wide-area data access, and probabilistic counting for large streams.

• Data-grid resource management and scheduling patterns that couple computation with data locality, enabling decoupled task placement, explicit data-placement strategies, and grid schedulers to minimize data movement and balance load across distributed resources [1], [17], [16], [4], [18].

• Compression and compact representations for high-dimensional data to tame storage and I/O bottlenecks, via condensed data cubes, prefix/suffix redundancy removal, and highly condensed cube structures across diverse scientific datasets [2], [3], [13], [14], [12].

• Data transport, replication management, and remote access for large-scale datasets in distributed environments, emphasizing secure, efficient transfer, consistency across replicas, and scalable wide-area data access [4], [8], [16].

• Multi-dimensional data processing and indexing architectures for scientific datasets, integrating storage, retrieval, and computation across distributed memories and disks to support fast, scalable analytics [6], [10], [15], [14], [11].

• Virtual data, provenance, and derivation frameworks enabling reproducible workflows and on-demand data generation in grid-enabled science, documenting procedures and relationships among data products [9], [17].

Popular Keywords

parallel computing

parallel programming

data management

cluster computing

[1]

Decoupling computation and data scheduling in distributed data-intensive applications

2003 • big data, cloud computing, cluster computing, computer architecture, data management, parallel computing, parallel programming

[2]

Condensed cube: an effective approach to reducing data cube size

2003 • big data, cluster computing, data integration, data management, data modeling, knowledge discovery, parallel computing

[3]

2002 • big data, cluster computing, data integration, data management, knowledge discovery, parallel computing, parallel programming

[4]

Secure, Efficient Data Transport and Replica Management for High-Performance Data-Intensive Computing

2001 • big data, cloud computing, cluster computing, data integration, data management, parallel computing, parallel programming

[5]

Distributed processing of very large datasets with DataCutter

2001 • big data, cluster computing, data integration, data management, parallel computing, parallel programming

[6]

Infrastructure for building parallel database systems for multi-dimensional data

2003 • big data, cluster computing, data integration, data management, data modeling, parallel computing, parallel programming

[7]

ScalParC: a new scalable and efficient parallel classification algorithm for mining large datasets

2002 • big data, cluster computing, computer architecture, knowledge discovery, parallel computing, parallel programming

[8]

High-performance remote access to climate simulation data

2001 • big data, cloud computing, cluster computing, data integration, data management, parallel computing, parallel programming

[9]

Chimera: a virtual data system for representing, querying, and automating data derivation

2002 • big data, cloud computing, cluster computing, data integration, data management, data modeling, knowledge discovery

[10]

Optimizing retrieval and processing of multi-dimensional scientific datasets

2002 • big data, cluster computing, data integration, data management, data modeling, knowledge discovery, parallel computing, parallel programming

[11]

Design of a framework for data-intensive wide-area applications

2002 • big data, cloud computing, cluster computing, computer architecture, data integration, data management, data modeling, parallel computing, parallel programming

[12]

Interactive out-of-core isosurface extraction

2002 • cluster computing, data integration, parallel computing, parallel programming

[13]

Titan: a high-performance remote-sensing database

2002 • data management, parallel computing, parallel programming

[14]

Efficient organization of large multidimensional arrays

2002 • cluster computing, computer architecture, data management, parallel computing, parallel programming

[15]

Visualization of large data sets with the Active Data Repository

2001 • big data, cluster computing, computer architecture, data integration, data management, data modeling, knowledge discovery, parallel computing, parallel programming

[16]

Stork: making data placement a first class citizen in the grid

2004 • big data, cloud computing, cluster computing, data integration, data management, data modeling, parallel computing, parallel programming

[17]

Chameleon: a resource scheduler in a data grid environment

2003 • big data, cloud computing, cluster computing, computer architecture, data integration, data management, parallel computing, parallel programming

[18]

A similarity graph-based approach to declustering problems and its application towards parallelizing grid files

2002 • cluster computing, data management, knowledge discovery, parallel computing, parallel programming

[19]

Efficient Progressive Skyline Computation

2001 • big data, cluster computing, data management, knowledge discovery, parallel programming

[20]

Efficient execution of multiple query workloads in data analysis applications

2001 • big data, cluster computing, data integration, data management, data modeling, parallel computing, parallel programming

MapReduce-to-DAG Data Analytics

2008 - 2014

Dataflow-Driven Distributed Analytics

2015 - 2016

Memory-Centric Data Analytics

2017 - 2023